big data - overfit.cn

大数据之Hive:regexp_extract函数

目录一、正则的通配符简介1、正则表达式的符号及意义2、各种操作符的运算优先级：二、regexp_extract函数一、正则的通配符简介1、正则表达式的符号及意义符号含义实列/做为转意，即通常在"/"后面的字符不按原来意义解释如" * “匹配它前面元字符0次或多次，/a*/将匹配a,aa,aaa，加了

overfit同步小助手 2023-04-02 03:04:51 0 收藏

【kafka可视化工具】kafka-eagle在windows环境的下载、安装、启动与访问

本文目录一、Kafka eagle的下载步骤一：访问官方网站：Download - EFAK步骤二：点击 Direct File Download二、kafka-eagle的安装步骤一：解压缩包步骤二：再解压缩Web客户端三、配置环境变量步骤一：配置 KE_HOME步骤二：配置 path 变量四、

overfit同步小助手 2023-04-01 21:04:17 0 收藏

Java面向数据库编程——数据库设计

为什么需要规范的数据库设计通过进行规范化的数据库设计，可以消除不必要的数据冗余，获得合理的数据库设计，提高项目的应用性能。什么是数据库设计就是将数据库中的数据实体及这些数据实体之间的关系，进行规划和结构化的过程。数据库中创建的数据结构的种类，以及在数据实体之间建立的复杂关系是决定数据库系统效率的重要

overfit同步小助手 2023-04-01 20:03:06 0 收藏

Scala的安装与配置

Scala安装配置及介绍一、为什么要学Scala1. Scala介绍Scala基于JVM，和Java完全兼容，同样具有跨平台、可移植性性好、方便的垃圾回收等特性是一门函数式编程语言Scala更适合大数据的处理Scala对集合类型数据处理有非常好的支持spark的底层用Scala编写2. Scala特

overfit同步小助手 2023-04-01 14:04:27 0 收藏

HBase Windows 安装

在安装HBase之前，我们需要先安装JDK和Hadoop，具体JDK和Hadoop的安装我前面已经做过了，需要的话，请看我的另一篇博客：Hadoop Windows 安装还是那句话，在安装HBase之前，我们需要搞清楚HBase、Hadoop和Java之间版本的对应关系：我们具体可以看Apache

overfit同步小助手 2023-04-01 13:04:43 0 收藏

ES聚合用法

ES中的聚合查询，类似SQL的SUM/AVG/COUNT/GROUP BY分组查询，主要用于统计分析场景。下面先介绍ES聚合查询的核心流程和核心概念。ES聚合查询类似SQL的GROUP by，一般统计分析主要分为两个步骤：对查询的数据首先进行一轮分组，可以设置分组条件，例如：新生入学，把所有的学生按

overfit同步小助手 2023-04-01 11:04:46 0 收藏

Doris系列1-Doris介绍

文章目录一. Doris简介二. Doris 整体架构2.1 Doris 整体架构简介2.2 Doris 数据分布2.3 Doris 的使用方式三. Doris关键技术3.1 数据可靠性3.2 易运维3.3 MySQL 兼容性3.4 支持 MPP四. Doris 数据模型4.1 Doris 数据模型

overfit同步小助手 2023-04-01 11:04:38 0 收藏

【数据可视化】三款主流开源数据可视化工具对比：Superset、DataEase、MetaBase

现在市场上开源 BI 产品比较多，各个产品的侧重点不同，有的以报表为主、有的以可视化为主、有的以查询分析为主。这里我们选取了一些主流的开源 BI 产品，从产品功能、可视化能力、数据源支持以及使用文档等方面进行对比，希望对你有帮助。由Airbnb贡献的轻量级BI产品，目前在GitHub上有3万多颗星，

overfit同步小助手 2023-04-01 08:05:32 0 收藏

【ETL】ETL大数据集成工具Sqoop、dataX、Kettle、Canal、StreamSets大比拼

对于数据仓库，大数据集成类应用，通常会采用ETL工具辅助完成。ETL，是英文 Extract-Transform-Load 的缩写，用来描述将数据从来源端经过抽取（extract）、交互转换（transform）、加载（load）至目的端的过程。当前的很多应用也存在大量的ELT应用模式。常见的ETL

overfit同步小助手 2023-04-01 07:04:16 0 收藏

大数据技术之——zookeeper的安装部署

Zookeeper是一个`开源的分布式的`，为分布式应用提供协调服务的Apache项目。Zookeeper从设计模式角度来理解，`是一个基于观察者模式设计的分布式服务管理框架`，它负责存储和管理大家都关心的数据，然后接受观察者的注册，一旦这些数据的状态发生了变化，Zookeeper就负责通知已经在Z

overfit同步小助手 2023-04-01 04:04:48 0 收藏

SkyWalking+es部署与使用

第一步下载skywalking :http://skywalking.apache.org/downloads/第二步下载es:https://www.elastic.co/cn/downloads/elasticsearch注：skywalking 和es要版本对应，可从下面连接查看版本对应关系，

overfit同步小助手 2023-04-01 04:04:32 0 收藏

hadoop的HDFS的shell命令大全（一篇文章就够了）

HDFS的shell命令1、安全模式安全模式：集群启动时，DN所有的DN都必须向MM汇报磁盘使用状态和block存储信息。在此之前出于对hdfs的保护，会禁止访问hdfs，此状态为安全模式1.查看安全模式状态#查看安全模式状态hdfs dfsasmin --safemode get#-状态-on|o

overfit同步小助手 2023-04-01 03:05:12 0 收藏

Python项目（Django）：国内新冠肺炎疫情大数据可视化平台

首先通过python编写的SaveMysqlData.py脚本将关于新冠肺炎疫情的数据从腾讯新闻或者百度新闻的实时疫情动态中直接爬取下来存储入MySQL数据库中，然后运行Django项目进入到登录界面，输入正确的登录账号和密码过后通过Echarts进行绘制图表来进行大屏显示。......

overfit同步小助手 2023-04-01 01:04:35 0 收藏

Kettle（Pentaho）用法：job作业中并行作业项执行完后执行下一作业项

本文基于Pentaho的kettle模块实现ETL功能，在spoon中实现创建、定义作业，记录作业job的两种处理并行作业项的方法。

overfit同步小助手 2023-03-31 23:04:58 0 收藏

使用devstack安装部署OpenStack（据详细手把手教学）

一、环境（1）操作系统：Linux。OpenStack官网推荐使用 Ubuntu-20.04 LTS进行安装OpenStack，所以本教程也以此版本为例。（不推荐使用其他版本，出现错误较多，容易安装失败）（2）虚拟机软件：VirtualBox或者Vmware。虚拟机的内存最好分配 8G 以上（至少4

overfit同步小助手 2023-03-31 23:04:26 0 收藏

【用户画像】将数据迁移到ClickHouse（源码实现）、位图的介绍（bitmap）、位图在用户分群中的应用、位图的使用

函数arrayJoin宽表转Bitmap表需要行转列，要用arrayJoin把多列数组炸成行。把聚合列的数字值聚合成Bitmap的聚合函数bitmapAnd求两个Bitmap值的交集bitmapOr求两个Bitmap值的并集bitmapXor求两个Bitmap值的差集(异或)把Bitmap转换成数值

overfit同步小助手 2023-03-31 22:04:28 0 收藏

flink checkpoint配置详解

如果都设置了，则代码中会覆盖flink-conf.yaml中的配置代码中设置StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); // 开启checkpoint 每5

overfit同步小助手 2023-03-31 21:05:06 0 收藏

超详细的基于docker搭建hadoop集群

基于Docker搭建Hadoop集群

overfit同步小助手 2023-03-31 20:04:49 0 收藏

HDFS的读写流程步骤（附图文解析）

HDFS的写入流程与读取流程，附图文步骤解析

overfit同步小助手 2023-03-31 20:04:08 0 收藏

数仓理论及建模方法

1. 数仓概述数据仓库：数据仓库是一个面向主题的、集成的、非易失的、随时间变化的数据集合。重要用于组织积累的历史数据，并且使用分析方法（OLAP、数据分析）进行分析整理，进而辅助决策，为管理者、企业系统提供数据支持，构建商业智能。面向主题：为数据分析提供服务，根据主题将原始数据集合在一起。集成的：

overfit同步小助手 2023-03-31 17:04:43 0 收藏